Un articolo comparso in aprile sulla prestigiosa rivista americana
Science ha avuto per molti utenti della Rete una portata rivelatrice
quasi messianica. Gli osservatori del mondo di Internet più
smaliziati, invece, hanno parlato di scoperta dell'acqua calda.
Di che cosa si trattava?
L'articolo era il resoconto di una ricerca effettuata al Nec Research
Institute di Princeton. Da essa scaturiva che nessun motore di
ricerca copre l'intero Web e che il più potente (all'epoca),
Hotbot, arrivava a indicizzarne solo un terzo. Naturalmente, per
giungere a questo risultato i ricercatori non hanno contato manualmente
tutte le pagine del Web. La loro era una stima derivata da un
calcolo molto semplice. Per prima cosa, sono state effettuate
oltre 500 ricerche con varie parole chiave nei sei motori di ricerca
principali (AltaVista, Excite, Hotbot, Infoseek, Lycos, Northern
Light). Ottenuti i risultati, i ricercatori li hanno confrontati,
osservando che il numero totale di pagine reperite da almeno un
motore era circa tre volte tanto il numero totale di pagine reperite
da tutti i motori. Prendendo come riferimento Hotbot, che alla
data di svolgimento della ricerca era il motore con il database
più ampio (110 milioni di pagine nel dicembre '97), i ricercatori
del Nec hanno concluso che il Web contiene circa 320 milioni di
url (numero che si ottiene moltiplicando 110 milioni per 2,9).
La notizia è ben presto circolata nella rete, cogliendo
molti di sorpresa. Alcuni hanno accusato i responsabili dei motori
di ricerca di avere tenuto nascosto questo fatto. Nessuno dei
motori, tuttavia, è mai stato ufficialmente accreditato
della copertura dell'intero Web, anche se bisogna dire che la
cosa poteva essere implicitamente desunta dalle affermazioni contenute
nei loro siti. Diciamo che si è trattato della tipica situazione
"Perché non me lo hai detto? Perché non me
lo hai mai chiesto!".
Ma il problema non è nuovo
I frequentatori delle Rete più attenti avevano comunque
già ben chiara la situazione. Esattamente un anno prima
della pubblicazione dell'articolo su Science, John Pike, webmaster
del sito della Federation of American Scientists, scrisse al sito
Zdnet, reo di avere divulgato uno studio sui motori di ricerca
che taceva una verità fondamentale che egli aveva scoperto.
Solo 600 delle 6.000 pagine contenute nel sito curato da Pike
erano state infatti indicizzate da Altavista. Pike allegò
la lettera di protesta da lui inviata ai responsabili del motore
di ricerca della Digital, e la replica ufficiale da parte del
responsabile capo, Louis Monier. Questi aveva risposto che si,
AltaVista non era esaustivo, ma più che altro per colpa
del fatto che esistono numerose pagine "sfuggenti",
come per esempio frame, documenti cgi, shopping basket, script
e così via; e che, comunque, già 600 su 6.000 era
un buon numero. Ovviamente la risposta non accontentò Pike,
che se non altro ebbe la soddisfazione di aver sollevato la questione,
costringendo Altavista a dichiarare apertamente qualcosa che avrebbe
preferito rimanesse poco noto.
A distanza di un anno, Science ha riaperto dunque la questione,
spingendo i navigatori a chiedersi perché i motori di ricerca
non cercano l'intero Web, e se ciò sia veramente importante.
Entrambe le domande non hanno una risposta univoca, e per capire
bene il perché bisogna andare con ordine, partendo da come
funziona un motore di ricerca.
E come funziona?
Ogni qualvolta ci si collega al sito di un motore di ricerca e
si esegue una richiesta per parole chiave, evidentemente il motore
non esegue una ricerca in tempo reale. Esso consulta un proprio
database, generalmente situato negli Stati Uniti (ma molti motori
hanno dei siti mirror in altri continenti), che contiene un indice
composto da decine di milioni di url (indirizzi di siti Web) e
una serie di informazioni relative al contenuto delle pagine corrispondenti
agli url. In un certo senso, è come se il database contenesse
un "Bignami" del Web accessibile in modo ultrarapido,
tanto è vero che le ricerche in genere richiedono pochi
secondi. Questo database viene aggiornato in due modi: tramite
l'inserimento di nuovi url su segnalazione degli utenti, e soprattutto
mediante un software automatico (detto spider o crawler) che,
a partire dagli url già memorizzati, percorre di continuo
in lungo e in largo il Web seguendo le catene di link ipertestuali
alla ricerca di nuove pagine. Spider infatti, in inglese, significa
ragno, e Web ragnatela; a differenza dei ragni in carne e ossa
(si fa per dire), quelli virtuali non producono le ragnatele,
ma si limitano a percorrerle, all'inseguimento dell'incessante
inserimento di nuovi siti. Inoltre, gli spider tornano a intervalli
regolari nei siti già visitati, registrando eventuali modifiche.
Per quanto iperattivi, gli spider dei vari motori non ce la fanno
però a tenere testa allo sviluppo continuo della ragnatela
digitale, essendo la loro velocità minore della velocità
di espansione del Web. Questa è la causa principale della
limitatezza dei motori di ricerca. Oltre a questo limite intrinseco,
vi sono altre cause che contribuiscono a estendere lo scarto fra
dimensioni del Web e dei database dei motori. Ecco le principali:
1) Alcuni siti impediscono volontariamente agli spider di accedere,
utilizzando un'opzione concessa dai motori stessi
2) Alcuni siti, limitando l'accesso agli abbonati, possono involontariamente
finire col bloccare anche gli spider
3) Alcune pagine contengono solo oggetti non indicizzati dai motori,
come suoni o applicazioni Java
4) La maggior parte dei motori non è in grado di seguire
i link contenuti nei frame.
Che cosa cambia per chi naviga
Quali sono le conseguenze pratiche di avere due terzi del Web
di fatto invisibili? La più evidente è che, in un
certo senso, parte dell'informazione è di fatto perduta.
Questo può essere spiacevole per chi non riesce a trovare
quanto cercato ma getta un'ombra, a livello generale, sull'efficienza
del World Wide Web come risorsa informativa mondiale. Paradossalmente,
l'eccesso di informazione ne rende problematico l'accesso.
Si potrà obiettare che, dopo tutto, non vi è bisogno
di milioni di pagine quando una notevole quantità di informazione
è presente nei primi venti o trenta hit forniti dai motori
di ricerca. Non si tiene conto, con tale ragionamento, che non
è detto che l'informazione più rilevante sia effettivamente
contenuta nelle pagine meglio classificate. Il vero problema,
a pensarci bene, si sposta dunque dalla completezza dei motori
di ricerca alla loro capacità di scovare l'informazione
più utile.
|